Enseignant-chercheur / Enseignante-chercheuse
Emploi Enseignement - Formation
Villejuif, 94, Val-de-Marne, Île-de-France
Analyse Multimodale des Vidéos avec LLM L'objectif de ce projet de doctorat est de développer un cadre complet qui intègre les grands modèles de langage (Large Language Models, LLMs) avec des techniques avancées de vision par ordinateur, afin d'améliorer la compréhension, la génération et la recherche de contenus multimédias. Apprentissage de Représentations Multimodales : Explorer des méthodes pour l'apprentissage de représentations conjointes qui fusionnent les informations textuelles et visuelles. Cela pourrait impliquer d'adapter des LLMs pré-entraînés pour traiter des entrées multimodales et d'entraîner des modèles capables de mapper l'espace sémantique du langage et l'espace visuel. Génération de Contenu : Explorer comment les LLMs peuvent être utilisés pour générer des textes descriptifs et contextuellement pertinents pour des images et des vidéos. Cela pourrait impliquer de conditionner le modèle de langage sur des caractéristiques visuelles extraites par un réseau de neurones convolutifs (CNN). Compréhension Sémantique : Étudier comment le modèle combiné peut atteindre une compréhension sémantique plus approfondie du contenu. Cela pourrait impliquer l'incorporation[...]